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У статті розглянуто шляхи удосконалення підходів до моніторингу іншомовних засобів 
масової інформації щодо подій в Україні, з урахуванням особливостей соціально-політичної 
обстановки, яка склалась в Україні останнім часом. Наведено основні результати аналізу 
провідних світових ЗМІ та запропоновано найбільш відповідні інструменти технології 
Сентимент-аналізу для опрацювання інформаційних потоків. 
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Вступ 

Сучасний інформаційний простір наповнений повідомленнями іншомовних засобів 
масової інформації (ЗМІ), що висвітлюють події різних країн, у тому числі й України. 

Опрацювання та аналіз іншомовних інформаційних повідомлень вимагає значних 
витрат часу, ускладнюючи процес виявлення інформаційних джерел та своєчасне 
реагування. Великий обсяг повідомлень іншомовних ЗМІ та стислість термінів 
викликають необхідність удосконалення підходів до моніторингу інформаційного 
простору |1|, що включає урахування особливостей цільових груп та інших важливих 
факторів. Удосконалення підходів до моніторингу іншомовних ЗМІ потребує 
використання програмних систем для об'єктивізації добування інформації зі ЗМІ та 
перевірки її достовірності. 

Аналіз останніх досліджень 

У ході досліджень за даним напрямом з'ясувалося, що останнім часом велика 
приділяється увага удосконаленню засобів оперативного Й поглибленого аналізу 
іншомовних інформаційних масивів, у тому числі текстових повідомлень ЗМІ. Це може 
досягатись шляхом автоматизації процесу багатовимірної аналітичної обробки 
повідомлень ЗМІ, що включає інтеграцію процесу обробки даних та динамічної 
актуалізації вихідних умов з відповідних інформаційних джерел. Для аналізу 
інформаційного контенту 1 прогнозування його розвитку в Інтернет-просторі, у |21, ІЗ| 
запропоновано інструментарій, що поєднує пошук релевантних джерел, аналіз 
вибраного контенту, прогноз його розвитку і складається з математичних методик та 
технологічних компонувань даних у єдиний профіль для конкретної галузі за напрямом 
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застосування. Про зростаючу важливість моніторингу та контролю відповідними 
державними структурами різних сфер суспільно-політичного життя свідчить і те, що на 
даний час відбувається розвиток системи виявлення терористичної загрози в Інтернет- 
комунікаціях з боку деяких країн, в інтересах структур безпеки Європейського союзу |41. 

Проте, незважаючи на значний науковий доробок у даній сфері, аналіз 
проблемних питань у методичних підходах вивчення іншомовних ЗМІ |3| свідчить, що 
однією з найслабших ланок є процедура побудови формальної моделі їх семантики. 
Також, недостатня увага приділяється розробці програмно-математичних засобів 
опрацювання зарубіжних іншомовних ЗМІ з приділенням уваги лінгвістичній складовій 
цього процесу. 

Тому, метою і основним змістом статті є визначення основних шляхів з 
удосконалення підходів до моніторингу іншомовних засобів масової інформації щодо 
подій в Україні, з увагою до особливостей обстановки, властивій Україні останніми 
роками, та урахуванням лінгвістичного компоненту повідомлень, досліджених ЗМІ. 

Викладення основного матеріалу 

Зазвичай, основним способом моніторингу в центральних органах виконавчої 
влади є пошук інформації в Інтернет за напрямом діяльності за допомогою ключових 
слів. При цьому значний інтерес для опрацювання інформації становить аналітико- 
прогностичний напрям, виконання завдань за яким дозволяє сприяти управлінню дер- 
жавними процесами та є необхідним у діяльності інформаційно-аналітичних підроз- 
ділів державних структур (6. 

Тому, в інтересах інформаційної безпеки України, необхідним є створення 
вітчизняних засобів моніторингу текстів іншомовних ЗМІ щодо подій в Україні та 
виконання аналітико-прогностичних завдань. 

Основні функції системи моніторингу іншомовних ЗМІ повинні бути такими: 

- Збір в Інтернет іншомовних повідомлень іноземних ЗМІ про події в Україні; 
- їх аналіз. 

У розробці необхідна також участь фахівців-лінгвістів, які повинні володіти 
іноземними мовами, що є важливим у даному дослідженні, на рівні, достатньому для 
здійснення аналізу тексту на предмет відповідності його окремих компонентів умовам 
дослідження. Результати їх роботи повинні бути включені до бази знань підсистеми 
визначення емоційної тональності та підсистеми прогнозування реакцій аудиторії, які 
повинні увійти до системи моніторингу. Відповідна база знань повинна бути покладена 
в основу блоку Сентимент-аналізу (З5епійтепі-апаЇузіз) системи та безпосередньо 
впливати на прийняття нею рішення щодо змісту повідомлення. 

Створення системи передбачає два основні етапи розробки: 

- розробку лінгвістичного забезпечення; 
- розробку програмного забезпечення. 

Етап розробки лінгвістичного забезпечення включає аналіз природномовних текстів. 
Він повинен бути спрямований на формування поняттєвої структури, тобто на витяг знань 
з іншомовних текстів та їх прагматичну інтерпретацію в термінах поставленої задачі. При 
цьому кожен текст розглядатиметься як об'єкт різних рівнів аналізу |7|: як знакова 
система, як граматична система та як система знань про предметну галузь. Через те, що 
кожен рівень має свої особливості, свої засоби вираження, він передбачатиме наявність 
відповідних методів обробки. 

Лінгвістичне розпізнавання знань з предметної галузі відображатиме морфологічний, 
синтаксичний та семантичний рівні мовної системи. На лінгвістичному етапі розроблення 
системи слід побудувати поняттєву структуру тексту. Вона включатиме тезаурус, 
структура якого орієнтована на завдання дослідження. Результати графемного та 
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синтаксичного розпізнавання є вхідними даними для семантичного розпізнавання, також 
як і еталонні моделі з тезаурусом понять, тезаурусом відношень і тезаурусом логіко- 
семантичних відношень. На етапі семантичного розпізнавання, де всі фрагменти тексту 
повинні бути об'єднані в єдину логіко-семантичну структуру, обробка полягатиме в 
узагальненні та уніфікації понять, відношень та їх характеристик |71. 

Дослідження повідомлень провідних зарубіжних ЗМІ, розрахованих на 
англомовну аудиторію, зокрема США |і країн Євросоюзу, показує наявність 
розбіжностей у поданні інформації про події в Україні та їх основних учасників. 
Зокрема, у статтях щодо конфлікту на Сході України проукраїнська позиція частіше 
властива ЗМІ США, а протилежна інтересам України позиція простежується часом у 
провідних європейських ЗМІ. Зокрема, такий розподіл часто властивий повідомленням 
європейських новинних каналів «Нигопеу/8» та «Рецізсреуеїе», англомовній версії 
«Виззіа їодау», а також таким виданням як «Спагаїап», «Егапсе 24» та деяким іншим. 

Важливим для удосконалення моніторингу є опрацювання лексичного 
наповнення повідомлень. Воно свідчить про окремі тенденції формування суспільної 
думки та є підгрунтям для приймання системою моніторингу рішення при виконанні 
завдання. Огляд вищезгаданих матеріалів показав, що їх дискурс відображає наявні там 
спроби впливу на аудиторію та включає такі мовні прийоми, як тенденційне 
викладення фактів 1 термінологічне мінування: викривлення первинної, правильної по 
суті, інформації і принципово важливих базових термінів 1 тлумачень. 

Наприклад, подання сторін конфлікту у новинах каналу «Кигопем/8» включає 
визначення: «єсуегптепі /оксе5» («урядові війська») та «рго-МоБсоу тійіа» (піна -- 
«збройні формування», «ополчення»). 

Лексичний склад англомовних видань щодо подій в Україні відображає 
поширення наступних уявлень та стереотипів, які закладаються в основу тенденцій 
формування суспільної думки. Основні з них наведені в наступному переліку. 

1) В Україні йде громадянська війна, однією із причин якої є розбіжності серед 
населення щодо укладання Угоди про асоціацію з Євросоюзом (8. 

2) Збройні Сили України самі влаштовують провокації для обстрілів |9). 

3) ЗС України обстрілюють житлові квартали |10). 

4) Нові провладні сили підтримують українські націоналістичні угрупування П 
Світової війни, які проводили етнічні чистки (різанина поляків), співпрацювали з 
нацистами та влаштовували єврейські погроми | 1|. 

5) Населення України надто бідне, і не зможе купувати товари європейських 
виробників, тому для нього доцільно навести лад у своїй країні та не поспішати 
укладати з ЄС угоду про асоціацію та інші взаємні юридичні зобов'язання | 121. 

6) Воєнні дії, що ведуться на Сході України, спричиняють зловживання порушенням 
там прав людей і дають «карт-бланш» для порушення прав людини на території усієї 
країни |11). 

7) Певна частина ЗС України не прагне до миру та намагається будь-яким способом 
спровокувати бойові дії (131. 

8) Український уряд, за підтримки Заходу, придушує військами право свого 
населення на самовизначення |14. 

9) Український уряд спекулює загрозою Російської агресії, щоб отримувати від 
Заходу грошову допомогу та зброю (15. 

Проведене дослідження з опрацювання дискурсу зазначених повідомлень 
дозволяє виділити ключові блоки, в межах яких формуються теми з властивим їм 
простором понять. На наступному етапі поняттєву структуру тексту інтегрують до 
бази знань системи. Це завдання виконується шляхом процедури семантико- 
прагматичного розпізнавання |7|. 
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Базу знань покладають в основу блоку Сентимент-аналізу (Зепіітепі-апаїубів), в 
якому використовуються відповідні алгоритми машинного навчання з інструментами 
класифікації. Застосування машинного навчання також допомагає у виявленні 
необ'єктивних або фейкових відгуків, що може бути корисним при виконанні 
вищевказаних завдань з моніторингу. Так, у ході аналізу тональності або вилучення 
поглядів проводиться математичне дослідження думок, настроїв, оцінок, тверджень, 
відгуків, поглядів, емоцій тощо, виражених у формі тексту. Згідно з формальним 
визначенням контенту, думка представлена у вигляді кортежу (2, аїк, 80 Бі, 6), де еі - 
об'єкт думки, ах - аспект об'єкту е. А вираз 50Оїкі - це тональність думки, яку 
висловлює автор Б; про аспект аї об'єкту е; в час (| (позитивна, негативна, нейтральна). 
р; - автор думки. і - час, коли думка висловлюється | 16). 

У ході класифікації дається оцінка всьому документу в цілому. Припускається, 
що документ написаний одним автором про один об'єкт. Використовуються такі 
інструменти як «навчання без учителя» (| л5ипрегуї5ед сіаз5ійсайоп) та «навчання зі 
вчителем» (Зирегуізед сіазвійсайоп). Вони дозволяють встановити в тексті велику 
кількість висловів думок та почуттів (оріпіоп у/ога8, зепійтепі у/огаі8), що може свідчити 
про суб'єктивність висловів, також як і багато прикметників. Аналіз текстів 
іншомовних ЗМІ проводиться з використанням алгоритмів Наївного байєсівського 
класифікатора та Методу опорних векторів (5иррогіед Уесіог Масфіпе). При цьому, 
кожен з цих методів має свої переваги та недоліки. 

Так, основні переваги Наївного байєсівського класифікатора (НБК) такі: 

- простота реалізації; 

- швидкий процес навчання. Обчислювальна складність навчання О(|М|); 

- незважаючи на те, що припущення про незалежність класифікаційних ознак не є 
правильним у природній мові (значення слова залежить від контексту), НЬК часто 
показує хороші результати при класифікації текстів. 

Однак, оскільки в природній мові слова не є незалежними, НБК не є 
оптимальним. Серед його основних недоліків є те, що значення, які повертаються при 
класифікації, не можна трактувати, як імовірності, що не дає можливості відповісти на 
питання, з якою імовірністю визначений клас |17|. 

Для удосконалення процесу опрацювання іншомовних ЗМІ у даному дослідженні 
більш доцільним вбачається використання Методу опорних векторів. 

У результаті вирішення задачі класифікації текстових документів для даних, що 
лінійно розділяються, отримуємо функцію класифікації, яка мінімізує верхню оцінку 
очікуваного ризику. 

Однією з проблем, які пов'язані з вирішенням задач класифікації зазначеним 
методом, є те, що не завжди можна знайти лінійну межу між двома класами. 

У таких випадках одним із варіантів є збільшення розмірності, тобто перенос 
даних із площини у тривимірний простір, де можливо побудувати таку площину, яка 
ідеально розділить множину зразків на два класи. Опорними векторами, в такому 
випадку, будуть слугувати об'єкти з обох класів, які є екстремальними. 

Таким чином, за допомогою додавання оператора ядра 1 додаткових розмірностей 
знаходять межі між класами у вигляді гіперплощин. 

Однак, слід пам'ятати: складність побудови 5УМ-моделі полягає у тому, що чим 
вища розмірність простору, тим складніше з ним працювати. Один з варіантів роботи з 
даними високої розмірності - це попереднє застосування якогось методу зниження 
розмірності даних для виявлення найбільш істотних компонент, а потім - використання 
методів опорних векторів. 

Однак, недоліками методу 5УМ є те, що для класифікації використовується не вся 
множина зразків, а лише мала частина, яка знаходиться на межах. 
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Поряд з цим, перевагою методу є те, що для класифікації саме з використанням цього 
методу, на відміну від більшості інших методів, достатньо невеликої кількості даних. При 
правильній роботі моделі, побудованій на тестовій множині, цілком можливим є 
застосування цього методу на реальних даних. Метод опорних векторів дозволяє: 

- отримати функцію класифікації з мінімальною верхньою оцінкою ризику, що 
очікується; 
- використовувати лінійний класифікатор для роботи з даними, що нелінійно 

розділюються, поєднуючи простоту з ефективністю (181. 

Висновки 

Отже, шляхи удосконалення підходів до моніторингу іншомовних засобів масової 
інформації на тему подій в Україні в сучасних умовах включають створення 
вітчизняних засобів моніторингу текстів іншомовних ЗМІ з можливістю виконання 
аналітико-прогностичних завдань. 

Важливим є аналіз як змісту повідомлень, так і власне їх дискурсу. Отримання 
об'єктивної інформації з іншомовних ЗМІ забезпечується обов'язковим урахуванням 
особливостей  суспільно-політичної обстановки та лінгвістичного компоненту 
повідомлень досліджуваних ЗМІ. 

Для опрацювання інформаційних потоків, використовується Сентимент-аналіз з 
відповідними алгоритмами машинного навчання, зокрема застосовуються Наївна 
модель Байєса та Метод опорних векторів. Для виконання завдань аналітико- 
прогностичної спрямованості, більш оптимальним з них є метод опорних векторів. 
Саме він ефективно здійснює класифікацію повідомлень іншомовних ЗМІ відповідно 
до заданих умов. Вказані шляхи удосконалення підходів до моніторингу іншомовних 
ЗМІ дають можливість відповідним державним структурам забезпечити оперативне 
виявлення інформаційних джерел серед іншомовних ЗМІ та своєчасне реагування. 
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О.М.Магспепко-Варісі 

Тре ітргоуетепі ої арргоасрез (о Гогеідп та55 тедіа птопіогіпо оп Ше 8иБбіесі 
ої «ре 5ікшабоп іп ОКгаїпе 

А Іагре атоипі ої Їогеїдп тедіа пеуу8 апа бгіеї (егтя аге Ше паїп геа5оп5 ї0 іаргоуе 
Фе арргоасре5 їо іпіоглабйоп епуїгоптепі плопіїогіпо. 5исп шаргоуетепі бгіпо5 Ше песд 
Кг Фе иц5е ої 8о0Їїмаге 5узіетзя о плаКке Ше ргосе85 ої іпбогтайоп ехітасйоп гот Бе тедіа 
апд 15 айірепіїсісу уегійсайоп тоге обіесіує. 

Тре деуеіортепі ої Гогеїдп тефіа птлопіїогіпе, сопсегпіпе еуепі5 їп ОКтаїпе похуаЧауз 
теап5 10 сгеаїе Фе Фотезіїс 5узіет мії апаЇубісаї апа Гогесазі Гипсйїопз5 аррПед Гог Богеїрп 
теайіа (ехіз. 

Тре апаїузі8 ої плез5аєєз сопіепі 15 50 ітпрогіапі аз Паї Бог їБеїг фізсоцг5е. Воїпе Ше 
зосіо-рописа! 5іїшайоп апа Ппеці5йс согаропепі аге фе плаїп ргегедцієїйеє Їїог дебіпе 
ипріавед іпбоглайоп бог Фогеїєп педйіа. Тре гезеагсп ої уосабиіагу іп Ше пем/з абоші 
ОКгаїпе геусаїз а ігепа ої зргеадіпо 5їегеогурез іо 5раре рибіїс оріпіоп. 

Зепійтепі апаЇу5і5 їесппоїору учїв Ше арргоргіаїе пласріпе Ісагпіпє аїсогіїргл5 їог 
Чака Поуу5 ргосез5іпє іпсіцде паїуе Вауєезіап сіав5ійег аїсогійртл5 апа Зиаррогі уесіог 
тасріпе. Зиррогі уесіог пласріпе 15 а іесрпідце Ше тобі арргоргіаїе їо Бе етаріоува іп Ше 
їехі ргосез5іпя, мії апаЇу5і5 Гипсіїоп рагіїсціагіу. Те ргосеззіпє ої Гогеідп тає5 педа 
умів (Фіз Кесрпідце ргоуідев Ше іпіогпайоп апа апаїуйса! асбіуїйев шпадаеєг зресійед 
сопдаїноп5. Те мауз ої ітргоуетепі ої арргоаспез іо плопіїогіпе ої Богеїєп тедіа епабіе 
теЇсуапі гоуегптепіа! асепсієз 10 дегесі а дебпед іпогтайоп аспуїу апа іо гезропа (теї!у. 
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